[系统安全] 三十六.学术分享之基于溯源图的攻击检测安全顶会论文总结
文章目录:
一.背景知识
二.APT攻击检测研究
1.APT攻击检测相关研究
2.基于异常检测的方法
3.基于溯源图的方法
SLEUTH [USENIX’17]
Poirot [CCS’19]
HOLMES [S&P’19]
Extrator [EurS&P’21]
HINTI [RAID’20]
UNICORN [NDSS’20]
ProvDetector NDSS’20
RapSheet [S&P’20]
ATLAS [USENIX’21]
三.方法对比
1.基于溯源图的方法研究趋势分析
2.方法优缺点对比
3.数据集对比
四.总结
作者的github资源:
逆向分析:
https://github.com/eastmountyxz/
SystemSecurity-ReverseAnalysis
网络安全:
https://github.com/eastmountyxz/
NetworkSecuritySelf-study
一.背景知识
隐蔽性
0-day漏洞、needle in a haystack(通常不到0.01%)、无文件攻击、加密流量持续性
low-and-slow(潜伏时间长)、攻击时间跨度大针对性
Stuxnet、SolarWinds模块化(自适应)
Stuxnet、WannaCry
无法捕获长期运行的系统行为
0-day漏洞导致攻击艰难检测
实时攻击检测、真实场景检测效果不佳
容易遭受投毒攻击
注意,这里的投毒攻击是指因APT攻击持续时间长,导致ML模型学习攻击特征时,会将恶意行为逐渐训练学习为正常行为…
kill-chain Model
洛克希德·马丁公司开发的“网络杀伤链”模型描述了网络攻击的各阶段流程,具体包括七个阶段,即目标侦查、武器构建、载荷投递、漏洞利用、安装植入、命令与控制、任务执行。
- ATT&CK Model
ATT&CK(Adversarial Tactics, Techniques, and Common Knowledge )是一个攻击行为知识库和模型,主要应用于评估攻防能力覆盖、APT情报分析、威胁狩猎及攻击模拟等领域。网址:https://attack.mitre.org/
二.APT攻击检测研究
1.APT攻击检测相关研究
(1) Anomaly-based detectors for APTs– 主机日志(审计日志)
– 系统调用
– 网络流量 | 警报信息
– 恶意行为
– 溯源图
– +引入外部知识
– +融合ATT&CK框架
– 因果关系图+NLP
2.基于异常检测的方法
3.基于溯源图的方法
SLEUTH [USENIX’17]
审计数据还原fireFox后门攻击场景
– Backdoor insertion
– Clean-up
Poirot [CCS’19]
HOLMES [S&P’19]
Extrator [EurS&P’21]
HINTI [RAID’20]
本文提取的13种主要的IOC性能如表3所示。总的来说,我们的IOC提取方法在精确率、召回率、平均F1值都表现出了优异的性能。然而,我们观察到在识别软件和恶意软件时的性能下降,这是因为大多数软件和恶意软件是由随机字符串命名,如md5。
图8显示了不同类型元路径下的前3个聚类结果,其中元路径 AVDPDTVTAT(P17) 在紧凑和分离良好的集群中性能最好,这表明它比其他元路径在描述攻击偏好方面具有更丰富的语义关系。
与之前的方法对比,本文也存在一些缺陷:
未在真实攻击场景实现
未实现对未知攻击的预测(知识推理)
未实现运行时检测及长期潜伏的APT攻击检测
没有和主流的知识框架融合
UNICORN [NDSS’20]
第六篇论文是NDSS’20的 UNICORN
。
Xueyuan Han, et al. Unicorn: Runtime Provenance-Based Detector for Advanced Persistent Threats. NDSS’20
https://arxiv.org/pdf/2001.01525.pdf
哈佛大学、布里斯托大学、伊利诺伊大学香槟分校、不列颠哥伦比亚大学
这篇文章的主要贡献如下:
针对APT特性设计一种基于溯源图(Provenance Graph)的运行时APT检测方法(直方图和概要图)
UNICORN能在没有先验攻击知识的前提下实现APT攻击检测,且准确率高和误报率低
- 第一个对本地完整系统进行运行分析的APT入侵检测系统,概要图能对抗长时间潜伏的投毒攻击
其框架如下图所示,包括四个核心步骤:
①构建溯源图
②建立运行时直方图
③计算概要图
④聚类
直方图生成算法如下,建议读者精读原文。
实验结果如下图所示:
同时包括一些详细的性能对比。
UNICORN与之前的方法对比结果如下:
Holmes[S&P’19]和Poirot[CCS’19]:需要先验专家知识(先决条件-结果模式)
基于系统调用和日志事件的检测方法:由于数据过于密集,难以对长时间的攻击行为进行建模
由于APT潜伏时间长且持久化,攻击行为会缓慢改变传统模型以逃避检测系统(投毒攻击)
UNICORN的局限性和改进如下:
需要定期重新训练
正常行为改变可能会产生误报
未考虑异质性行为
更大的实验评估(IDS数据集)
ProvDetector NDSS’20
第七篇论文是NDSS’20的 ProvDetector
。
Qi Wang, et al. You Are What You Do: Hunting Stealthy Malware via Data Provenance Analysis. NDSS’20
https://www.ndss-symposium.org/wp-content/uploads/2020/02/24167-paper.pdf
伊利诺伊大学香槟分校、NEC实验室、德克萨斯州大学达拉斯分校
首先,我们先介绍下离地攻击。
只使用预安装的软件并且攻击者没有在系统上安装额外的二进制可执行文件。带有宏、VB脚本、Powershell脚本或者使用系统命令(如netsh命令)的文档属于离地攻击的范围。
由于现有反病毒软件和方法很难检测到该类攻击,本文提出一种ProvDetector方法,它需要依赖内核级的溯源监控来捕获目标程序的动态行为。
这篇文章的主要贡献如下:
- 提出一种基于溯源图的系统,用于检测伪装技术的隐蔽恶意软件(离地攻击 | 无文件攻击)
- 提出一种新的路径选择算法来识别溯源图中潜在的恶意部分(恶意行为与底层操作系统交互)
- 设计一个新的神经嵌入和机器学习管道,自动为每个程序建立一个轮廓并识别异常进程
ProvDetector的核心ProvDetector分为四部分:图构建、特征提取、嵌入和异常检测。部署监控代理,按照定义收集系统数据放入数据库。定期扫描数据库检查是否有新添加的进程被劫持。对于每个进程,先构建起起源图(图构建)。然后从源点图中选择路径子集(特征提取)并将路径转换为数值向量(嵌入)使用一个新颖的检测器来获得嵌入向量的预测并报告最终决定(异常检测)。
实验结果如下图所示:
你可能会疑惑为什么分享这篇文章呢?
一方面由于它也用到了溯源图概念,另一方面同样来自于伊利诺伊大学香槟分校团队(同UNICORN),并且将溯源图应用于其他领域,即检测伪装技术的隐蔽恶意软件。这也是我们探索论文idea的一个思路,可能其他领域或方法也会给我们带来灵感喔。当然,目前作者科研能力太弱,需要不断提升,学习嘛,一辈子的事情。加油!
RapSheet [S&P’20]
第八篇论文是S&P’20的 RapSheet
。
Wajih Ul Hassan, et al. Tactical Provenance Analysis for Endpoint Detection and Response Systems. S&P’20
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9152771
伊利诺伊大学香槟分校、NortonLifeLock
本文首先指出已有的EDR(端点检测和响应)工具存在的三个主要弊端:
(1) EDR工具会产生大量的虚假警报,从而为分析人员积压了调查任务;
(2) 确定这些威胁警报的准确性需要大量的低级系统日志,人工任务繁琐;
(3) 由于日志占用巨大资源,系统日志通常在进行调查之前就被删除。
因此,本文提出了战术源图(Tactical Provenance Graphs, TPGs)的概念,个人感觉TTPs+溯源图,并研发了RapSheet系统,直接推理EDR系统生成的威胁警报之间因果关系。其主要贡献如下:
- 首次将溯源图引入商业EDR(Endpoint Detection and Response)
- 提出战术溯源图(Tactical Provenance Graphs, TPGs)表示EDR生成威胁警报间的因果依赖关系
- 引入一种威胁评分方法:根据TPGs中存在的单个威胁警报之间的时间顺序来评估风险
本文是用商业赛门铁克EDR软件进行真实检测和实验。其实验结果表明:
提升商业EDR效果,检测未知攻击行为
减少系统日志降低系统存储开销
提高赛门铁克EDR的威胁检测精确度
保留警报之间的因果关联性
RapSheet与传统方法对比:
Holmes商业EDR部署复杂(保留100%日志)
holmes16条TTP匹配规则 vs RapSheet增加至67条
实践中EDR工具会限制日志缓冲区
NoDoze防止投毒攻击假设(正常行为数据库)
未跟踪ALPC消息(Windows),会断开溯源图
利用DTaP高效分布式存储提高查询响应时间
ATLAS [USENIX’21]
最后一篇是2021年USENIX的论文,作者仅作了简单的阅读。即 ATLAS
。该文章来自普度大学团队,针对APT研究成果还包括NDSS’13的BEEP、NDSS’16的ProTracer等。此外,CCS21也发现了新的溯源图研究成果,说明基于溯源图的研究仍然是一个值得探索的方向。
Abdulellah Alsaheel, et al. ATLAS: A Sequence-based Learning Approach for Attack Investigation. USENIX’21
https://www.usenix.org/system/files/sec21-alsaheel.pdf
普度大学
本文提出一种基于序列的攻击调查学习方法ATLAS。其主要观察结果是:无论所利用的漏洞和执行的有效载荷如何,不同的攻击可能共享相似的抽象攻击策略。ATLAS是利用因果关系分析、自然语言处理和机器学习技术的新颖组合来构建基于序列的模型,该模型从因果图建立攻击和非攻击行为的关键模式。在推断时间,给定威胁警报事件,确定因果图中的攻击症状节点。然后,ATLAS构造一组与攻击症状节点关联的候选序列,使用基于序列的模型来识别顺序中有助于攻击的节点,并将识别出的攻击节点统一起来构建攻击记录。
参考Serendipity老师的文章:https://zhuanlan.zhihu.com/p/393375355
本文的主要贡献如下:
- 利用审计日志生成端到端攻击故事(end-to-end attack story)的框架
- 构建一个基于序列的模型:因果关系图(causal graph)+自然语言处理+深度学习
- 真实APT攻击事件(10个)进行实验,并能恢复攻击关键步骤及还原攻击故事
- 研究发现不同的攻击可能共享相似的抽象攻击策略
个人感觉生成Attack Story还原攻击故事是本文的一大亮点。
实验结果如下图所示,建议阅读原文。
ATLAS 主要涉及支持审计日志溯源追踪的三个子主题,包括:溯源图的因果关系分析、基于异常的分析以及 ML 技术在攻击调查中的应用。当然也存在一定的缺陷,即:
当前工作仅限制于Windows平台
无法检测到使用类似正常事件序列的隐藏攻击行为,比如模拟攻击
模型性能很大程度上取决于所收集的训练日志条目的质量
三.方法对比
写到这里,上述方法已经介绍完毕,接下来我们对所有文章进行简单的研究趋势梳理和方法对比研究。
1.基于溯源图的方法研究趋势分析
研究趋势如下,还原各位老师和读者指正及补充。
2.方法优缺点对比
方法对比主要从溯源图、知识框架、先验知识和优缺点进行比较,得出如下表所示结果。个人感觉,溯源图、是否引入知识框架(ATT&CK)、是否有先验知识、是否融入NLP(消歧 | 对齐 | 去噪合真实场景应用是该方向研究的重要进步补充。
3.数据集对比
数据集的对比如下图所示,主要以DARPA TC、公开威胁情报文本和真实场景攻击数据为主。
四.总结
最后做一个简单总结,写得不足之处还请批评和指正。写这篇文章只希望帮助更多的APT攻击研究者和初学者,同时也是对自己阶段知识的总结,虽然很少有人分享类似正在研究或未发表的总结,但还是想先分享出来,与大家一起探讨和进步,真诚地希望对您有帮助吧!感恩遇见,不负青春,读博路上相互鼓励着前行。
基于溯源图的APT攻击检测是APT检测领域中一个非常重要的分支,由于APT攻击的隐蔽性、威胁性、实时性、针对性,传统的方法艰难检测,因此提出了溯源图的方法。当前的研究趋势主要表现在:
- 基于溯源图和知识图谱的APT攻击检测
- 结合APT攻击阶段特点,融合ATT&CK知识框架进行中间层特征表示,解决语义损失
- 全系统真实场景的细粒度APT攻击检测
- 引入外部威胁情报知识(NLP消歧对齐)来辅助APT检测
- 无先验专家知识
- 对未知APT攻击实现预测
未来的研究趋势,个人感觉如下,不喜勿喷,哈哈!
- 基于图神经网络的APT攻击检测,图可能更好地表达攻击之间的关系
- 从NLP角度分析APT攻击以揭示其特性(融合恶意代码分析)
- 检测并定位APT攻击样本中0-day漏洞是否存在及位置,感觉很难
- 场景迁移:EDR、无文件攻击、在线场景、真实场景
- 加密、混淆、对抗样本、无文件
学安全一年,认识了很多安全大佬和朋友,希望大家一起进步。这篇文章中如果存在一些不足,还请海涵。作者作为网络安全初学者的慢慢成长路吧!希望未来能更透彻撰写相关文章。同时非常感谢参考文献中的安全大佬们的文章分享,深知自己很菜,得努力前行。
最后感谢CSDN和读者们十年的陪伴,不论外面如何评价CSDN,这里始终是我的家,在这里写文章很温馨,也认识了很多大佬和朋友。此外,个人感觉今年是我近十年文章质量最高的一年,每一篇都写得很用心,都是我的血肉,很多都要自己从零去学习再分享,也希望帮助更多初学者。总之,希望自己还能写二十年,五十年,一辈子。
《珈国情》
明月千里两相思,
清风缕缕寄离愁。
燕归珞珈花已谢,
情满景逸映深秋。
最感恩的永远是家人的支持,知道为啥而来,知道要做啥,知道努力才能回去。夜已深,虽然笨,但还得奋斗。
欢迎大家讨论,是否觉得这系列文章帮助到您!任何建议都可以评论告知读者,共勉。
(By:Eastmount 2022-06-09 夜于月球)
前文回顾(下面的超链接可以点击喔):
[系统安全] 三十六.学术分享之基于溯源图的APT攻击检测安全顶会论文总结